%	\chapter{贝叶斯估计}
	\section{基本观念}
	统计学中由两大学派，一种叫频率学派，一种叫贝叶斯学派。在上一章的点估计和区间估计过程中，主要考虑了两种信息：关于总体分布的种类，以及样本的观察值。然而，贝叶斯学派更进一步，考虑先验信息。这种先验信息来自经验或者历史资料。
	
	贝叶斯学派的基本观点是，任意未知变量$\theta$都可以看作是随机变量，可以用一个概率分布去描述，这个分布称为先验分布。比如说，高考结束后，成绩下发之前，我们都可以认为考生的分数是随机变量，即使试卷已经批改完成，本质上考生成绩已经确定了。所以自然有这样的想法：某某考生在估分时声称，自己有95\%的把握考上南京大学，显然这时他的分数就被当作随机变量了。
	
	贝叶斯统计的基本流程如下：
	\begin{enumerate}
		\item 在经典统计中，我们记依赖于参数$\theta$的概率密度为$f(x;\theta)$，它表示参数空间$\Theta$中不同的$\theta$对应不同的分布。但在贝叶斯统计中，它记为$f(x|\theta)$，它表示在随机变量$\theta$给定某个值时，$X$的条件密度。
		
		\item 根据参数$\theta$的先验信息，确定其先验分布$\pi(\theta)$。这里的先验分布，实际上是联合密度$f(x,\theta)$中关于$\theta$的边缘密度。
		
		\item 样本$X=(X_1,\cdots,X_n)$的产生分为两步进行。首先设想从先验分布$\pi(\theta)$中产生一个样本$\theta'$，这一步是上帝完成的，而非人为的，所以用“设想”。第二步从$f(x|\theta')$中产生一组样本$X_i$。这时，其联合条件密度为
		\begin{equation}
		f(x_1,\cdots,x_n|\theta')=\prod_{i=1}^n f(x_i|\theta')
		\end{equation}
		这个联合分布含有总体信息以及样本信息，又称为似然函数。
		\item 由于$\theta'$是设想出来的，仍是未知的，按先验分布$\pi(\theta)$产生。为了把先验信息综合进去，不能只考虑$\theta'$，对$\theta$具有其他观察值的情形也要考虑进去，所以要用$\pi(\theta)$进行综合。于是，样本和参数的联合分布密度为
		\begin{equation}
		h(x_1,\cdots,x_n,\theta)=f(x_1,\cdots,x_n|\theta)\pi(\theta)
		\end{equation}
		\item 我们的任务是，对未知参数$\theta$做出统计推断。在没有样本信息时，只能依据先验分布$\pi(\theta)$对$\theta$作出推断。在有了样本观察值$x=(x_1,\cdots,x_n)$之后，就应该依据联合密度$h(x_1,\cdots,x_n,\theta)$进行推断。我们有
		\begin{equation}
		h(x_1,\cdots,x_n,\theta)=\pi(\theta|x_1,\cdots,x_n)m(x_1,\cdots,x_n)
		\end{equation}
		其中，$m(x_1,\cdots,x_n)$是边缘密度：
		\begin{equation}
		m(x_1,\cdots,x_n)=\int_{\Theta}h(x_1,\cdots,x_n,\theta)d\theta=\int_{\Theta}f(x_1,\cdots,x_n|\theta)\pi(\theta)d\theta
		\end{equation}
		由于$m(x_1,\cdots,x_n)$与$\theta$无关，因此能对$\theta$作出推断的只有条件分布
		\begin{equation}
		\pi(\theta|x_1,\cdots,x_n)=\frac{h(x_1,\cdots,x_n,\theta)}{m(x_1,\cdots,x_n)}=\frac{f(x_1,\cdots,x_n|\theta)\pi(\theta)}{\int_{\Theta}f(x_1,\cdots,x_n|\theta)\pi(\theta)d\theta}
		\end{equation}
		这便是贝叶斯公式的概率密度函数形式。
	\end{enumerate}
	\begin{definition}[后验分布]
		设从总体$X$取出样本$X_1,\cdots,X_n$，总体分布依赖于参数$\theta$。设参数$\theta$的先验分布为$\pi(\theta)$，样本和参数的联合分布为$h(x_1,\cdots,x_n,\theta)$，在参数$\theta$下样本的条件分布为$f(x_1,\cdots,x_n|\theta)$，则称在样本为$x_1,\cdots,x_n$下，参数的条件分布
		\begin{equation}
		\pi(\theta|x_1,\cdots,x_n)=\frac{h(x_1,\cdots,x_n,\theta)}{\int_{\Theta}f(x_1,\cdots,x_n|\theta)\pi(\theta)d\theta}
		\end{equation}
		为参数$\theta$的后验分布密度。
	\end{definition}
	
	后验分布集中了总体、样本和先验中有关$\theta$的一切信息，也是利用总体、样本对先验分布$\pi(\theta)$进行调整的结果，比$\pi(\theta)$要更接近实际情况，从而使得基于$\pi(\theta|x_1,\cdots,x_n)$对$\theta$的推断可以得到改进。
	
	例子。设事件$A$的概率为$P(A)=\theta$，为了估计$\theta$，进行了$n$次独立的观察，其中事件$A$出现的次数为$X$。显然，$X\sim B(n,\theta)$，分布列为
	\begin{equation}
	P(X=x|\theta)=\begin{pmatrix}
	n\\x
	\end{pmatrix}\theta^x (1-\theta)^{n-x},\quad x=0,1,\cdots,n
	\end{equation}
	这实际上就是似然函数$f(x|\theta)$。在试验开始前，我们对事件$A$发生的概率其实没有了解，因此不妨设$\theta\sim U(0,1)$。把均匀分布作为先验分布的做法，称为贝叶斯假设。
	
	有了似然函数和先验分布，我们来计算样本和参数的联合分布密度：
	\begin{equation}
	h(x_1,\cdots,x_n,\theta)=1\cdot\begin{pmatrix}
	n\\x
	\end{pmatrix}\theta^x (1-\theta)^{n-x},\quad \theta\in(0,1),\ x=0,1,\cdots,n
	\end{equation}
	再计算样本为$x$的边缘密度，考虑Beta函数，可得
	\begin{equation}
	m(x)=\int_{0}^{1} \begin{pmatrix}
	n\\x
	\end{pmatrix}\theta^x (1-\theta)^{n-x} d\theta=\begin{pmatrix}
	n\\x
	\end{pmatrix}\frac{\Gamma(x+1)\Gamma(n-x+1)}{\Gamma(n+2)},\quad x=0,1,\cdots,n
	\end{equation}
	最后，计算后验分布
	\begin{equation}
	\pi(\theta|x)=\frac{\Gamma(n+2)}{\Gamma(x+1)\Gamma(n-x+1)}\theta^x(1-\theta)^{n-x},\quad \theta\in(0,1),\ x=0,1,\cdots,n
	\end{equation}
	这里的后验分布实际上就是Beta分布${\rm Be}(x+1,n-x+1)$。
	\begin{definition}[Beta分布]
		我们称随机变量$X$服从参数为$\alpha,\beta$的Beta分布，当其密度可写为
		\begin{equation}
		f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1},\quad x\in(0,1)
		\end{equation}
		记为$X\sim {\rm Be}(\alpha,\beta)$。
	\end{definition}
	
	\begin{theorem}[Beta分布的性质]
		\begin{enumerate}
			\item 设随机变量$X\sim {\rm Be}(\alpha,\beta)$，则$X$的期望是
			\begin{equation}
			EX=\frac{\alpha}{\alpha+\beta}
			\end{equation}
			\item 设随机变量$X\sim {\rm Be}(\alpha,\beta)$，则$X$的方差是
			\begin{equation}
			VarX=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}
			\end{equation}
		\end{enumerate}
	\end{theorem}
	\begin{proof}
		\begin{enumerate}
			\item 我们有
			\begin{equation}
			\int_{0}^{1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}dx=1
			\end{equation}
			于是令$\alpha_1=\alpha+1$
			\begin{equation}
			\begin{aligned}
			EX&=\int_{0}^{1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha}(1-x)^{\beta-1}dx\\
%			&=\int_{0}^{1}\frac{\Gamma(\alpha_1+\beta-1)}{\Gamma(\alpha_1-1)\Gamma(\beta)}x^{\alpha_1-1}(1-x)^{\beta-1}dx\\
%			&=\frac{\Gamma(\alpha_1+\beta-1)\Gamma(\alpha_1)}{\Gamma(\alpha_1-1)\Gamma(\alpha_1+\beta)}\int_{0}^{1}\frac{\Gamma(\alpha_1+\beta)}{\Gamma(\alpha_1)\Gamma(\beta)}x^{\alpha_1-1}(1-x)^{\beta-1}dx\\
			&=\frac{\Gamma(\alpha+\beta)\Gamma(\alpha_1)}{\Gamma(\alpha)\Gamma(\alpha_1+\beta)}\int_{0}^{1}\frac{\Gamma(\alpha_1+\beta)}{\Gamma(\alpha_1)\Gamma(\beta)}x^{\alpha_1-1}(1-x)^{\beta-1}dx\\
			&=\frac{\Gamma(\alpha+\beta)\Gamma(\alpha+1)}{\Gamma(\alpha)\Gamma(\alpha+\beta+1)}=\frac{\alpha}{\alpha+\beta}
			\end{aligned}
			\end{equation}
			\item 根据$VarX=EX^2-E^2X$，令$\alpha_2=\alpha+2$，有
			\begin{equation}
			\begin{aligned}
			EX^2&=\int_{0}^{1}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha+1}(1-x)^{\beta-1}dx\\
			&=\frac{\Gamma(\alpha+\beta)\Gamma(\alpha_2)}{\Gamma(\alpha)\Gamma(\alpha_2+\beta)}\int_{0}^{1}\frac{\Gamma(\alpha_2+\beta)}{\Gamma(\alpha_2)\Gamma(\beta)}x^{\alpha_2-1}(1-x)^{\beta-1}dx\\
			&=\frac{\Gamma(\alpha+\beta)\Gamma(\alpha+2)}{\Gamma(\alpha)\Gamma(\alpha+\beta+2)}=\frac{\alpha(\alpha+1)}{(\alpha+\beta)(\alpha+\beta+1)}
			\end{aligned}
			\end{equation}
			于是
			\begin{equation}
			VarX=EX^2-E^2X=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}
			\end{equation}\qed
		\end{enumerate}
	\end{proof}

	\section{共轭先验分布}
	显然，当$\alpha=\beta=1$时，Beta分布会退化为均匀分布。然后在上一节的例子中，可以看到二项分布的参数$\theta$服从的分布，如果看成${\rm Be}(1,1)$的话，则其后验分布也是Beta分布${\rm Be}(x+1,n-x+1)$，也就是说，先验分布和后验分布都是Beta分布，只是参数不同。
	
	先验分布和后验分布是同一种类型的现像不是偶然的。事实上只要先验分布是Beta分布，那么算出来的后验分布也一定是Beta分布。这种先验分布就是$\theta$的共轭先验分布。
	
	\begin{definition}[共轭先验分布]
		设$\theta$是某分布中的一个参数，$\pi(\theta)$是其先验分布。加入由抽样信息算得的后验分布$\pi(\theta|x)$与$\pi(\theta)$同属一个分布族，则称$\pi(\theta)$是$\theta$的共轭先验分布。
	\end{definition}
	
	\begin{theorem}[正太均值的共轭先验分布]
		设总体$X\sim N(\theta,\sigma^2)$，其中$\sigma^2$已知。从中抽取样本$X_1,\cdots,X_n$，则后验分布$\pi(\theta|x_1,\cdots,x_n)$与$\pi(\theta)$都服从正态分布。
	\end{theorem}
	\begin{proof}
		遵循基本流程，我们首先给出在参数$\theta$下的联合条件密度
		\begin{equation}
		f(x_1,\cdots,x_n|\theta)=\left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\theta)^2\right]
		\end{equation}
		我们认为，正太均值的先验分布是另一个正态分布：
		\begin{equation}
		\pi(\theta)=\frac{1}{\sqrt{2\pi\tau^2}}e^{-\frac{1}{2\tau^2}(\theta-\mu)^2}
		\end{equation}
		于是联合密度为
		\begin{equation}
		h(x_1,\cdots,x_n,\theta)=\frac{1}{(2\pi)^{\frac{n+1}{2}}\sigma^n\tau}\exp\left[-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\theta)^2-\frac{1}{2\tau^2}(\theta-\mu)^2\right]
		\end{equation}
		为了计算方便，令
		\begin{equation}
		\begin{aligned}
		&k_1=\frac{1}{(2\pi)^{\frac{n+1}{2}}\sigma^n\tau},\quad &\bar{x}=\frac{1}{n}\sum_{i=1}^n x_i,\quad &\sigma_0^2=\frac{\sigma^2}{n}, \\ &A=\frac{1}{\sigma^2}+\frac{1}{\tau^2},\quad &B=\frac{\bar{x}}{\sigma_0^2}+\frac{\mu}{\tau^2},\quad &C=\frac{1}{\sigma^2}\sum_{i=1}^n x_i^2 +\frac{\mu^2}{\tau^2}
		\end{aligned}
		\end{equation}
		从而把指数项展开再配方得
		\begin{equation}
		h(x_1,\cdots,x_n,\theta)=k_1 \exp\left[-\frac{\left(\theta-\frac{B}{A}\right)^2}{\frac{2}{A}}-\frac{1}{2}\left(C-\frac{B^2}{A}\right)\right]
		\end{equation}
		即可写出$x_1,\cdots,x_n$的边缘密度
		\begin{equation}
		m(x_1,\cdots,x_n)=\int_{-\infty}^{+\infty}h(x_1,\cdots,x_n,\theta)d\theta=k_1\exp\left[-\frac{1}{2}\left(C-\frac{B^2}{A}\right)\right]\sqrt{\frac{2\pi}{A}}
		\end{equation}
		从而$\theta$的后验分布为
		\begin{equation}
		\pi(\theta|x_1,\cdots,x_n)=\sqrt{\frac{A}{2\pi}}\exp\left[-\frac{A}{2}\left(\theta-\frac{B}{A}\right)^2\right]
		\end{equation}
		这正是正态分布。\qed
	\end{proof}
	
	比如说，对于总体$X\sim N(\theta,2^2)$，认为$\theta$的先验分布$\theta\sim N(10,3^2)$，从总体中抽取5个样本，样本均值$\bar{x}=12.1$，则这时$\theta$的后验分布是$N(11.93, (6/7)^2)$。
	
	共轭先验分布中常含有未知参数，称为超参数。在先验分布类型已定，但其中含有超参数时，确定先验分布的问题就转化为估计超参数的问题。
	
	比如说，在二项分布中$B(n,\theta)$，成功概率$\theta$的共轭先验分布是Beta分布${\rm Be}(\alpha,\beta)$，那么超参数$\alpha,\beta$的确定方法分以下几种情况：
	\begin{enumerate}
		\item 假如根据先验信息能获得$\theta$的若干个观察值$\theta_1,\cdots,\theta_n$，一般它们是从历史数据整理加工获得的。由此，可以算得先验均值$\bar{\theta}$和先验方差$S_{n\theta}^2$为
		\begin{equation}
		\bar{\theta}=\frac{1}{n}\sum_{i=1}^{n}\theta_i,\quad S_{n\theta}^2=\frac{1}{n}\sum_{i=1}^n(\theta_i-\bar{\theta})^2
		\end{equation}
		令
		\begin{equation}
		E\theta=\frac{\alpha}{\alpha+\beta}=\bar{\theta},\quad Var\theta=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}=S_{n\theta}^2
		\end{equation}
		反解即可得超参数的矩法估计
		\begin{equation}
		\hat{\alpha}=\bar{\theta}\left(\frac{\bar{\theta}(1-\bar{\theta})}{S_{n\theta}^2}-1\right),\quad \hat{\beta}=(1-\bar{\theta})\left(\frac{\bar{\theta}(1-\bar{\theta})}{S_{n\theta}^2}-1\right)
		\end{equation}
		
		\item 加入根据先验信息，只能获得先验均值$\bar{\theta}$，那就令
		\begin{equation}
		E\theta=\frac{\alpha}{\alpha+\beta}=\bar{\theta}
		\end{equation}
		但只有一个约束方程，所以接下来就任意取$\alpha+\beta$的值。如果$\alpha+\beta$取得大，那么对应算出来的$VarX$就比较小，说明我们对$E\theta=\bar{\theta}$这个结果非常肯定；如果我们对$E\theta=\bar{\theta}$这个结果的确定性存疑，那$\alpha+\beta$的值就要选得小一些。
		
		\item 如果我们已经有了先验的、关于$\theta$的区间估计的信息，比如说，我们有$0.90$的把握，认定$\theta\in[\theta_L,\theta_U]$之间，且这是等尾的区间估计，那么就有
		\begin{equation}
		\int_{0}^{\theta_L}\frac{\alpha+\beta}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta=0.05,\quad 
		\end{equation}
		以及
		\begin{equation}
		\int_{\theta_U}^{1}\frac{\alpha+\beta}{\Gamma(\alpha)\Gamma(\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta=0.05
		\end{equation}
		然后计算数值积分，来定出$\hat{\alpha}$和$\hat{\beta}$即可。
		
		\item 如果没有任何先验信息，就遵循贝叶斯假设，认定$\theta\sim {\rm Be}(1,1)$即可。
	\end{enumerate}

	\section{贝叶斯参数估计}
	有了后验分布$\pi(\theta|x)$，就可以从中取得参数的点估计或区间估计。点估计有三种方法，第一种是使得后验密度达到最大的$\theta$，第二种是后验密度的中位数，第三种是后验分布的期望。期望是最常用的。
	
	\begin{definition}[贝叶斯估计]
		设从总体$X$的分布中具有参数$\theta$，从总体中抽取独立同分布样本$X_1,\cdots,X_n$，观察值为$x_1,\cdots,x_n$，则$\theta$的后验密度为$\pi(\theta|x_1,\cdots,x_n)$。我们称期望
		\begin{equation}
		E(\theta|x_1,\cdots,x_n)=\int_{\theta\in\Theta}\theta\pi(\theta|x_1,\cdots,x_n)d\theta
		\end{equation}
		为$\theta$的后验期望估计，也称为贝叶斯估计，记作$\hat{\theta}_B$。
	\end{definition}
	
	\begin{theorem}[后验期望估计的均方误差最小]
		设从总体$X$的分布中具有参数$\theta$，从总体中抽取独立同分布样本$X_1,\cdots,X_n$，观察值为$x_1,\cdots,x_n$，则$\theta$的后验密度为$\pi(\theta|x_1,\cdots,x_n)$。那么，后验期望估计$\hat{\theta}_B$使得均方误差$MSE(\hat{\theta}_B)$达到最小。
	\end{theorem}
	\begin{proof}
		均方误差为
		\begin{equation}
		MSE(\hat{\theta}_B)=E(\hat{\theta}_B-\theta)^2=\int_{\Theta}(\hat{\theta}_B-\theta)^2\pi(\theta|x_1,\cdots,x_n)d\theta
		\end{equation}
		要使其最小，有
		\begin{equation}
		\frac{\partial}{\partial\hat{\theta}_B}\int_{\Theta}(\hat{\theta}_B-\theta)^2\pi(\theta|x_1,\cdots,x_n)d\theta=0
		\end{equation}
		从而
		\begin{equation}
		\hat{\theta}_B\int_{\Theta}\pi(\theta|x_1,\cdots,x_n)-\int_{\Theta}\theta\pi(\theta|x_1,\cdots,x_n)d\theta=0
		\end{equation}
		因此
		\begin{equation}
		\hat{\theta}_B=\int_{\Theta}\theta\pi(\theta|x_1,\cdots,x_n)d\theta=E(\theta|x_1,\cdots,x_n)
		\end{equation}\qed
	\end{proof}

	例子。对于正态分布$X\sim N(\theta,\sigma^2)$，$\sigma$已知，，抽取样本的观察值为$x_1,\cdots,x_n$，则$\theta$的贝叶斯估计是
	\begin{equation}
	\hat{\theta}_B=\frac{B}{A}=\left.\left(\frac{\bar{x}}{\sigma_0^2}+\frac{\mu}{\tau^2}\right)\right/\left(\frac{1}{\sigma^2}+\frac{1}{\tau^2}\right)
	\end{equation}
	其中$\tau^2$是先验分布的方差，$\sigma_0^2=\sigma^2/n$。
	
	我们发现，$\hat{\theta_B}$的分子由两项组成，分别是样本均值$\bar{x}$和先验分布期望$\mu$，而其系数则相应的是样本均值的方差，以及先验分布的方差。设想如果某一种方差很小，说明这个信息非常肯定，那么$\hat{\theta}_B$很大程度上就由这边的信息所决定；反过来说如果某一种方差非常大，说明这个信息不靠谱，那么贝叶斯估计就不会给它太多分量。
	
	另一个例子。设事件$A$发生的概率为$P(A)=\theta$，今进行$n$次独立观察，其中$A$发生了$X$次，$X$的观察值为$x$。我们设$\theta$的先验分布是Beta分布，而且根据先验信息，我们已经对超参数进行了点估计，因此先验分布已知，为$\pi(\theta)\sim {\rm Be}(\alpha,\beta)$。那么，$\theta$的后验分布是$\pi(\theta|x)\sim {\rm Be}(x+\alpha,n-x+\beta)$，其贝叶斯估计
	\begin{equation}
	\hat{\theta}_B=E(\theta|x)=\frac{x+\alpha}{n+\alpha+\beta}
	\end{equation}
	
	我们同样发现，$\hat{\theta_B}$的分子由两项组成，分别是发生次数$x$和先验分布的参数$\alpha$，这同样体现了贝叶斯估计的两个不同的来源：样本信息以及先验信息。进一步发现，如果抽样次数$n$很大，那么贝叶斯估计$\hat{\theta}_B$就很接近极大似然估计$\hat{\theta}_L=x/n$，这意味着绝大部分信息都来自于抽样，而先验信息则不占什么分量。
	
	
	\begin{definition}[可信区间]
		设总体$X$服从的分布含有参数$\theta$，其先验分布为$\pi(\theta)$，从中抽取样本$X_1,\cdots,X_n$，其观察值为$x_1,\cdots,x_n$。设参数的后验分布为$\pi(\theta|x_1,\cdots,x_n)$，对于给定的概率$1-\alpha$，如果存在这样两个统计量$\theta_L=\theta_L(x_1,\cdots,x_n)$和$\theta_U=\theta_U(x_1,\cdots,x_n)$，使得
		\begin{equation}
		P(\theta_L\leq\theta\leq\theta_U|x_1,\cdots,x_n)\geq 1-\alpha
		\end{equation}
		则称区间$[\theta_L,\theta_U]$为参数$\theta$的可信水平为$1-\alpha$的贝叶斯可信区间，或简称为$1-\alpha$可信区间。
	\end{definition}

	\begin{definition}[可信下限和可信上限]
		设参数的后验分布为$\pi(\theta|x_1,\cdots,x_n)$，对于给定的概率$1-\alpha$，如果存在这样两个统计量$\theta_L=\theta_L(x_1,\cdots,x_n)$和$\theta_U=\theta_U(x_1,\cdots,x_n)$，使得
		\begin{equation}
		P(\theta\geq\theta_L|x_1,\cdots,x_n)\geq 1-\alpha
		\end{equation}
		则称$\theta_L$为$\theta$的$1-\alpha$可信下限。对于
		\begin{equation}
		P(\theta\leq\theta_U|x_1,\cdots,x_n)\geq 1-\alpha
		\end{equation}
		则称$\theta_U$为$\theta$的$1-\alpha$可信上限。
	\end{definition}
	贝叶斯区间估计比经典方法更容易处理一些，毕竟后验分布$\pi(\theta|x)$已经给出来了，我们只需要算算积分就可以。
	
	注意，在频率学派眼中，参数$\theta$是给定了的数，因此对于置信区间(Confidence Interval)只能说：我们求出来的区间，有$1-\alpha$的概率能覆盖到$\theta$的真实值。而在贝叶斯学派眼中，参数$\theta$是一个随机变量，因此对于可信区间(Credible Interval)而言，就能说：参数$\theta$有$1-\alpha$的概率落在我们求出来的区间里。
	